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Vision artificial 



La vision artificial o vision por computador es la ciencia y la tecnologia 
que permite a las "maquinas" ver, extraer information de las image- 
nes digitales, resolver alguna tarea o entender la escena que estan visio- 
nando. 



Actualmente, las aplicaciones de la vision artificial estan muy extendidas y 
van desde el campo de la industria (contar botellas, comprobar defectos en 
una cadena de montaje, interpretar un TAC medico...) y el campo de la me- 
dicina (recuento y busqueda de celulas), hasta los sistemas mas complejos, 
que permiten a los robots orientarse en un entorno desconocido, pasando por 
el reconocimiento de patrones de la realidad aumentada, entre otras muchas 
aplicaciones. 

Hoy en dia se utilizan cada vez mas las tecnicas de vision artificial en el campo del diseno 
interactivo mediante la interaction con superficies multitactiles (multitouch), la interac- 
tion con tangibles (objetos) y el reconocimiento de gestos corporales. 

Todos estos ejemplos incorporan tecnicas de vision artificial. 

De alguna manera, en el contexto en el que estamos, este conjunto de tec- 
nicas nos permite disenar interacciones, de modo que el usuario utiliza su 
movimiento o su manipulation de objetos para interactuar con la aplicacion. 
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Objetivos 



1. Analizar las diferentes herramientas, procesos y proyectos que tienen que 
ver con la disciplina de la vision por computadora, aplicada al contexto 
de la interaccion. 

2. Entender la metodologia de un proyecto de vision por computadora para 
que, mediante la aplicacion de estos conceptos, podais disenar vuestras 
propias interacciones, basadas en vision artificial. 
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1. Conceptos teoricos 



1.1. Luz visible, luz invisible 



El ojo humano ve una parte del espectro de toda la luz que ilumina el 
universe El rango de luz que podemos ver lo denominaremos luz visible. 



Esto quiere decir que hay frecuencias de luz que no podemos ver pero que 
existen, como por ejemplo, los infrarrojos y los ultravioletas. 



Ved tambien 



Las imageries impresas en es- 
te documento se pueden con- 
sultar en color en el aula vir- 
tual de la asignatura en HMTL 
o PDF. 



Esquema de la morfologfa de un ojo humano 




Fuente: Wikipedia 



• Los infrarrojos son los "colores" no visibles al ojo humano que estan 
por debajo del rojo desde el punto de vista frecuencial. 

• Los ultravioletas son los "colores" no visibles al ojo humano que 
estan por encima del violeta. 
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Espectrograma de la luz visible y no visible 
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Color 
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Rojo 


620-750 nm 


Infrarrojo 


> 750 nm 



Abreviatura: nm = nanometro (unidad de medida del siste- 
ma metrico, igual a una billonesima parte de un metro. 



El hecho es que la mayoria de sensores de camaras digitales son sensibles a la 
luz visible, pero tambien son sensibles (en diferente medida) a la luz infrarroja 
y/o a la ultravioleta. Ahora bien, la luz infrarroja no nos es util para construir 
una imagen digital, puesto que nos da information de una frecuencia que no 
podemos ver y que, por lo tanto, no tiene una representation posible en un 
color. 



Por esta razon, la mayoria de camaras digitales enfocadas a hacer fotografias 
o fotogramas llevan un filtro anti-IR, o sea antiinfrarojos, para cortar todas 
las frecuencias por debajo del espectro visible que nos resultarian un ruido 
innecesario, y solo dejan pasar el rango de luz visible que queremos plasmar 
con la camara. 
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1.2. La imagen en movimiento 

Los procesos de vision artificial son posibles gracias a tecnologias basadas en la 
captura de la imagen (camaras de video, camaras web), sumadas a la capacidad 
de procesamiento de los ordenadores actuales. 

En realidad, la tecnologia de captation de la imagen se empieza a gestar en 
el siglo xix, con la invention de los daguerrotipos (o incluso antes, con el 
descubrimiento del principio de la camara oscura) y la posterior invention 
de la fotografia. Descubrimientos posteriores, como la cronofotografia y otros 
precursores del cine, acaban desembocando en la invention de las tecnologias 
de captation de la imagen en movimiento: 



Toda una serie de fotografias disparadas a una gran frecuencia que, re- 
producidas despues a esa misma velocidad, provocan en los espectado- 
res la ilusion del movimiento. 



Actualmente, la mayoria de tecnologias de captation de imagen en movimien- 
to (videocamaras) funcionan mediante el uso de sensores electronicos (CCD y 
CMOS). Durante la primera decada del siglo xxi, se ha estandarizado el uso de 
la fotografia y el video digitales, lo que permite la grabacion de imagenes en 
alta resolution a un relativo bajo coste y con un elevado numero de imagenes 
por segundo (FPS). 

1.3. La imagen digital 



1.3.1. Matrices de pixeles 

En el mundo digital, las imagenes se representan como una matriz bidimen- 
sional de pixeles en la que cada pixel puede adquirir valores de color codifi- 
cados con tres parametros (R: red, G: green, B: blue). 



A pesar de que ello se ha heredado del mundo de la imagen analogica, nor- 
malmente trabajaremos con imagenes de proportion 4x3 (cuatro unidades 
de anchura por tres unidades de altura); es el caso de resoluciones estandar 
como 640 x 480 px, 800 x 600 px y 1.024 x 768 px. 

Frecuentemente, utilizaremos imagenes de baja resolution (entre 160 x 120 y 
640 x 480 pixeles) como fuente de analisis de los procesos de vision artificial, 
ya que en la mayoria de casos no necesitaremos excesivo detalle en las image- 
nes para efectuar un analisis orientado a la vision por computador. 



16 x 9 



En algunos casos, podemos 
encontrar imagenes en el for- 
mato 16x9, puesto que hoy 
en dfa se nan popularizado las 
videocamaras de alta defini- 
cion en formato panoramico. 
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1.3.2. Bytes, bits y colores 

Un pixel normalmente se expresa mediante tres numeros enteros (R, G, B), que 
representan los componentes rojo, verde y azul de todo color. Estos valores de 
R, G y B se suelen expresar en un rango de 8 bits, o sea, de valores entre 0 y 255. 

Ejemplo 

Por ejemplo, un pixel que tenga unos valores RGB de (255, 0, 0) nos indica un color rojo 
puro. Un pixel que tenga unos valores RGB (255, 0, 255) nos indica un color producido 
por una mezcla del rojo puro y el azul puro; en este caso, por lo tanto, obtendremos un 
color lila intenso. 

1.3.3. Frecuencia de imagen (frame rate) 

La frecuencia de imagen (frame rate) hace referenda al numero de ima- 
genes por segundo. Es la medida de la frecuencia a la que un reproduc- 
tor de imagenes muestra diferentes fotogramas (frames). 



En informatica estos fotogramas estan constituidos por un numero determi- 
nado de pixeles que se distribuyen a lo largo de una red de texturas. La fre- 
cuencia de los fotogramas es proporcional al numero de pixeles que se han 
de generar y que inciden en el rendimiento del ordenador que los reproduce. 

La frecuencia de actualization de las imagenes oscila, en el entorno digital, 
entre los 15 y los 60 FPS (frames por segundo). El rango entre 25 y 30 FPS es 
el mas comun. 

Segun nuestras necesidades, deberemos elegir tecnologias de captacion de la 
imagen con una frecuencia de imagen especifica. Si queremos analizar y ex- 
traer datos de objetos o usuarios que se mueven a grandes velocidades (co- 
ches, pajaros, corredores de futbol...), seguramente necesitaremos un sistema 
de captacion de video con mas resolution temporal (una frecuencia de imagen 
mas alta: mas fotogramas por segundo). 

1.4. Un ejemplo basico 

Aunque entraremos en profundidad en la materia en los apartados siguientes, 
es conveniente hacer un breve analisis de un tipico proceso de vision artificial 
para que, de ahora en adelante, podais analizar con una cierta perspectiva los 
conceptos que iremos introduciendo. Fijaos en este ejemplo esquema: 
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1) Imagen original 

2) Imagen procesada en escala de grises 

3) Imagen neta del fondo 

4) Imagen resultante de la sustraccion de fondo y la binarizacion 

5) Extraccion de datos (area del blob y centra de coordenadas) 
Fuente: www.eyesweb.org 

En este ejemplo, podeis observar algunos de los procesos tipicos de la vision 
artificial. 

A menudo necesitamos conseguir una imagen muy clara y simple del objeto 
o el usuario del que queremos efectuar un seguimiento. Para no cargar el pro- 
cesador de los ordenadores, es habitual aplicar los algoritmos de analisis sobre 
imagenes de color binario (un bit: bianco y negro), de las que se puede extraer 
el centro de masas del area de pixeles blancos, los contornos... 

Para conseguir esta imagen simple y clara, efectuaremos diferentes procesos, 
como podeis observar en este ejemplo: la sustraccion de fondo o la binariza- 
cion, entre otros. 

Una vez conseguida esta imagen binaria final, los algoritmos de vision nos 
permiten extraer una serie de datos, como veremos a continuation. En este 
caso particular, se extraen las coordenadas del centro de la masa blanca de 
pixeles y el area que la rodea (punto y lineas rojas). 
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2. El espacio y las herramientas 



2.1. La camara 



Para empezar a trabajar con la vision artificial, necesi tamos un disposi- 
tivo sensible a la luz visible que nos permita almacenar las imagenes 
en formato digital. En otras palabras, necesitamos una camara web, una 
camara de video o una capturadora analogica. 




Ejemplo de camara de vision artificial del sector industrial fabricada por 
Point-Grey 

Fuente: http://doc.instantreality.org/ 



Las camaras web y la mayoria de camaras de video se pueden conectar direc- 
tamente a los ordenadores por medio de los puertos USB, FireWire o Thunder- 
bolt, y podemos capturar sus fotogramas en tiempo real. En todo caso, tam- 
bien podemos utilizar una capturadora analogica, que a partir de una senal de 
video analogico, nos permitira capturar imagenes y procesarlas. 




Ejemplo de camara web fabricada por Logitech 
Fuente: http://doc.instantreality.org/ 
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Una vez que ya tengamos el dispositivo de captura en funcionamiento, hemos 
de considerar toda una serie de aspectos referentes al entorno en el que se hara 
la interaction, puesto que la variation en la iluminacion, la complejidad 
de la imagen u otros factores pueden dificultar mucho el proceso de vision 
artificial. 

Pensad que el proceso de "ensenar" a un ordenador a tomar decisiones por 
medio de la "vision" implica muchas dificultades y, por lo tanto, es muy im- 
portante trabajar en entornos en los que la luz y el escenario que se quieran 
analizar sean cuanto mas sencillos y estables mejor. 

2.2. Iluminacion de la escena 

La adquisicion de imagenes por parte de una camara varia mucho segun la 
iluminacion de la escena. Un cambio lo bastante fuerte en el ambiente lumi- 
nico puede hacer que todo el sistema de vision artificial funcione de un modo 
muy diferente. 

Por tanto, siempre que sea posible trabajaremos en entornos en los que 
el ambiente luminico sea cuanto mas estable mejor. 



En casos en los que no se pueda conseguir un ambiente estable (como por 
ejemplo una aplicacion al aire libre), deberemos ir adaptando de alguna mane- 
ra el sistema de adquisicion de imagenes a las condiciones cambiantes median- 
te algoritmos adaptativos que permitan analizar periodicamente los cambios 
de iluminacion del entorno y adaptar el sistema de vision a las nuevas condi- 
ciones. 

Algunas camaras, como la que lleva el mando de la Wii o muchas del sector 
industrial, son especialmente sensibles a los infrarrojos, puesto que nos per- 
miten trabajar en un entorno sin luz visible, en la oscuridad, siempre que ten- 
gamos alguna fuente de luz infrarroja. 

Ejemplo 

Por ejemplo, muchos sistemas de videovigilancia incorporan, ademas de videocamaras 
sensibles a la luz infrarroja, un anillo de LED que emiten luz infrarroja, invisible al ojo pe- 
ro visible para la camara, lo que permite la visibilidad en entornos de oscuridad aparente. 

Esta particularidad se aprovecha en muchos casos en el diseno de interfaces 
interactivas. 
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Por ejemplo, pongamos el caso de un teatro en el que un actor, a oscuras, describa una 
trayectoria por el escenario y queramos proyectar en el suelo su recorrido. En principio, 
con una camara normal, como estamos a oscuras, no podriamos captar nada. Para poder 
trabajar en condiciones de oscuridad, lo que hariamos seria iluminar la escena con luz 
infrarroja, que no es visible pero que si que es visible para la camara sensible a los infra- 
rrojos (por ejemplo, una camara web a la que hubieramos sacado el filtro anti-IR ante- 
riormente mencionado). Asi pues, una camara de estas caracteristicas, en una situacion 
como esta, obtiene una imagen muy neta del cuerpo del actor (en bianco) sobre el fondo 
(negro) del escenario, una imagen perfecta para analizar con vision artificial, puesto que 
el cuerpo no interfiere con el fondo. 

La luz infrarroja se puede generar de varias maneras: hay focos de LED infra- 
rrojos que nos permiten "bombardear" un espacio con luz infrarroja. Otro sis- 
tema menos costoso es utilizar una luz de teatro incandescente, a la que pon- 
dremos tres filtros: uno rojo, uno verde y uno azul (colores puros). El efecto 
de poner un filtro rojo hace que la luz saiga tintada de rojo, es decir, que eli- 
minemos todos los colores excepto el rojo de la luz filtrada. Si sobre este filtro 
ponemos un filtro azul, estaremos eliminando todos los colores (incluyendo 
el rojo que nos habia quedado) excepto el azul (que ya no estaba en la luz 
filtrada porque lo habia eliminado el filtro rojo). Y sobre estos dos filtros ana- 
dimos el filtro verde, con resultados parecidos. Por lo tanto, hemos eliminado 
toda la luz visible con los tres filtros, pero no hemos eliminado las frecuencias 
infrarrojas con los filtros. Lo que hemos hecho ha sido transformar una luz 
incandescente en una luz infrarroja. 

2.3. Proyecciones de video y visibilidad 



En un entorno interactivo nos podemos encontrar a menudo con la 
necesidad de tener en un mismo espacio un sistema de vision artificial 
y una proyeccion de video. Como veremos algo mas adelante, la cora- 
plejidad de los algoritmos de vision artificial podria hacer que un sis- 
tema tenga que discernir entre una proyeccion de video interactiva y 
el usuario que la manipula, algo muy dificultoso si las dos "imagenes" 
estan integradas en un mismo espacio. Como en el apartado anterior, 
gracias a comprender la respuesta de la luz y sus propiedades, podemos 
solucionar estas dificultades. 




Si no bloquearamos la entrada de luz visible en la camara, encontranamos problemas en el contexto de una interaccion con 
videoproyecciones, puesto que el sistema CV reconocerfa los elementos proyectados (cfrculos blancos) como parte integrante 
de los blobs analizados. 
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La luz proyectada por un proyector, evidentemente, es visible al ojo humano 
y/o para las camaras digitales normales. En el caso que planteamos, queremos 
obtener una imagen del usuario que interactive con la pantalla de videopro- 
yecciones, pero no de los contenidos de la videoproyeccion. Para lograrlo, po- 
demos hacer uso de la tecnica descrita en el apartado anterior, referente a la 
luz infrarroja, usando una camara que "vea" la luz del espectro infrarrojo. 

Si a esta camara le anadimos un filtro que bloquee la luz visible, lo que con- 
seguiremos es que la camara no sea sensible a la luz visible y solo capte la luz 
infrarroja. Por lo tanto, esta camara podra ver al usuario manipulando el sis- 
tema, puesto que su cuerpo hara rebotar la luz infrarroja, pero no podra ver la 
proyeccion (que se encuentra solo dentro del rango de luz visible). 



Esquema de la configuracion escenica comentada, luz visible filtrada a IR, camara de video filtrada a IR y retroproyector de video 
sobre la pantalla de fondo 



2.4. OpenCV 

OpenCV u Open Computer Vision es un conjunto de bibliotecas de pro- 
gramacion que nos permiten llevar a cabo todo el proceso que hemos 
visto anteriormente dentro de un ordenador: desde la adquisicion de la 
imagen hasta la extraccion de la information. 

La gran mayoria de aplicaciones del software libre relacionadas con la vision 
artificial estan basadas en OpenCV. Estas bibliotecas las desarrollo Intel como 
extension de las bibliotecas IPL, desde 1999 como proyecto de codigo abierto, 
y en el ano 2007 se llego a publicar la version 1.0. Estas bibliotecas son la 
base de algoritmos y funciones que finalmente podremos aplicar en nuestras 
aplicaciones. 



Reflexion 



Como corolario de este ejem- 
plo, podemos concluirque un 
proyector de vfdeo no gene- 
ra luz infrarroja, puesto que los 
proyectores llevan un filtro de 
luz anti-IR, que no permite que 
"proyecten" luz en el espectro 
infrarrojo. 





Luz visible 




Proyeccion de video 
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2.5. Entornos de programacion 

Para desarrollar una aplicacion que trabaje con vision artificial, hemos de tra- 
bajar en un entorno de programacion que nos permita integrar las bibliotecas 
de OpenCV y combinarlas con el resto del sistema interactivo. Aqui dentro po- 
driamos incluir entornos como Processing, openFrameworks, MAX/MSP, Pure 
Data... Todos estos sistemas de programacion nos permiten ejecutar algorit- 
mos y funciones de vision artificial y, a la vez, generar un sistema interactivo 
que trabaje con graficos, musica, video, etc. 

Dentro de los sectores industrial, medico y militar mas profesionales, hay una 
gran cantidad de soluciones y alternativas, tanto de hardware (camaras termi- 
cas, camaras lineales, camaras de alta resolucion o alta velocidad) como de 
software, a OpenCV. 




Ejemplo de camara termica. La imager) se construye segun la temperatura 
de cada punto 
Fuente: www.x20.org 
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3. Disenando interacciones: conceptos, algoritmos y 
funciones. Kinect 



Las tecnicas de vision artificial siguen normalmente un proceso desde la ad- 
quisicion de la imagen hasta la toma de decisiones segun la informacion pro- 
cesada. Lo resumimos a continuation: 

Adquisicion Extraccion Extraccion 

de la imagen ^ Procesamiento ^ de datQS ^ de informaci6n 

3.1. Adquisicion de la imagen 



Una imagen digital es producida por sensores digitales presentes en ca- 
maras y otros dispositivos digitales que generan una imagen bidimen- 
sional (2D), es decir, un conjunto de N x Mpixeles o colores o intensida- 
des de un cierto valor que representan el espacio que queremos analizar. 



En el mundo de la interaction, podemos utilizar camaras digitales de dife- 
rentes tipos (camaras web, DV o USB). En el fondo, cada tipo de aplicacion 
puede necesitar un tipo u otro de camara segun las necesidades. 

3.2. Procesamiento de la imagen 



Antes de extraer informacion directamente de la imagen, se acostum- 
bra a hacer un procesamiento previo de la misma para conseguir otra 
que nos permita hacer el proceso de extraccion de datos mas sencillo 
y eficiente. 



Como ejemplo, el hecho de aplicar un desenfoque en una imagen nos permite, de alguna 
manera, "redondear" los contornos de las formas que aparecen en ella, lo nos puede ser 
util en diversas ocasiones. Modificar la luminosidad para tener una imagen mas contras- 
tada nos puede ayudar a dar mas importancia visual a la parte que queremos analizar. 
Reescalar y reencuadrar la imagen nos permite centrar el proceso de vision artificial solo 
sobre la porcion de la imagen que nos interesa realmente, ahorrandonos asi un procesa- 
miento innecesario. 



Ejemplo 



Por ejemplo, el procesamien- 
to puede incluir funciones pa- 
ra modificar la luminosidad y 
el contraste, para reescalar la 
imagen, los niveles de color, 
las curvas, la binarizacion, el 
desenfoque (blur), etc. 



A continuation, analizaremos algunos algoritmos de procesamiento de la ima- 
gen usados frecuentemente en la vision artificial. 



Esta sera la imagen de ejemplo original que utilizaremos para explicar diferen- 
tes funciones del procesamiento de la imagen. Tiene una resolution de 800 
pixeles horizontales por 800 pixeles verticales. 
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Imagen original 

Fuente: www.opencv.org 



3.2.1. Escala de grises 

En muchos casos, el color de la imagen no nos aportara ninguna informacion 
relevante para interactuar. Por lo tanto, en estas situaciones se acostumbra a 
descartar la informacion de color de la imagen transformandola en una ima- 
gen de tonos de grises. 

De este modo, "ahorraremos" mucha informacion y los calculos seran mucho 
mas sencillos de computar. Por ejemplo, si estamos analizando el movimiento 
dentro de una imagen en color, nos podemos ahorrar aproximadamente 2/3 
partes de los pixeles que se han de tratar si descartamos los componentes de 
color y trabajamos simplemente con la imagen de intensidad luminosa o ni- 
veles de grises. 




Transformamos la imagen de prueba de color (R, G, B) a tonalidad de 
grises, es decir, solo con una dimension de color (L) de luminancia. 
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Por ejemplo, la imagen original ocupaba en la memoria, en numero de bytes: 
800 pixeles x 800 pixeles x 3 bytes (R, G, B) = 1.920.000 bytes. 
En cambio, la imagen transformada en bianco y negro ocupara, en niimero de bytes: 
800 pixeles x 800 pixeles x 1 byte (L) = 640.000 bytes. 

3.2.2. Binarizacion por umbral (threshold binarizatiori) 



El proceso de binarizacion por umbral parte de una imagen en tonos de 
grises y, a partir de un valor definible de umbral de intensidad de luz 
llamado threshold, la imagen se transforma en una imagen binaria, es 
decir, con pixeles blancos o pixeles negros. 



Si el pixel analizado tenia un valor de intensidad inferior al umbral, quedara 
en negro, y si su intensidad era mas elevada que el umbral, quedara en bianco. 
De alguna manera, esto nos permite descartar los tonos medios grises y facili- 
ta mucho la computacion de ciertos algoritmos, puesto que otra vez hemos 
transformado la imagen en algo mucho mas ligero y facil de procesar. 




Transformamos la imagen de prueba de color (R, G, B) a bianco y negro, 
es decir, solo con dos colores: bianco absoluto y negro absoluto. 



Tal como hemos visto, la imagen original pesaba 1.920.000 bytes (1 byte = 8 
bits); por lo tanto, pesaba 15.360.000 bits. 

En cambio, la imagen transformada con umbral de bianco y negro ocupara, 
en numero de bits: 

800 pixeles x 800 pixeles x 1 bit = 640.000 bits, es decir, 24 veces menos en 
numero de bits que el original. 



Velocidad y resolucion de la imagen 

Muchos de los procesos de vision artificial se basan en trabajar por cada pixel de la ima- 
gen internamente; por lo tanto, si con la binarizacion conseguimos 24 veces menos de 
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bits que procesar, los algoritmos correran mucho mas rapido. Asi pues, un factor deter- 
minante en la velocidad de los calculos que se generan en las aplicaciones de vision ar- 
tificial es la resolution de la imagen en pixeles. Una imagen de 320 x 240 pixeles sera 
procesada mucho mas rapidamente que una imagen de 1.024 x 768 pixeles. 




Fuente: www.openframeworks.ee 



En esta imagen, podemos ver las tres representaciones hasta ahora menciona- 
das. Arriba a la izquierda, tenemos la representation en color del fotograma 
capturado por la camara; arriba a la derecha, la transformation a bianco y ne- 
gro de la misma imagen, y abajo a la derecha, la representation binaria de la 
imagen en bianco y negro. El umbral en esta binarizacion se ha fijado en un 
valor que permite distinguir facilmente la mano (blanca) del fondo (negro). 



3.2.3. Sustraccion de fondo o background substruction 



La sustraccion de fondo o background substruction es una tecnica de pro- 
cesamiento de la imagen que permite "restar" una imagen del fondo de 
la escena con el fotograma actual y obtener, pues, el fotograma actual 
"menos" el fondo. De este modo, podemos aislar los objetos que han 
variado respecto de la imagen del fondo de una escena y determinar si 
ha habido movimiento. 



Reflexion 



Hay que tener en cuenta que 
esta tecnica requiere poder 
"capturar" la imagen de "fon- 
do". Su utilidad es en entornos 
relativamente controlados, en 
los que podamos conocer co- 
mo sera el fondo durante todo 
el procesamiento o bien en los 
que nos podamos ir adaptan- 
do. 
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Fuente: www.openframeworks.ee 



En esta imagen vemos todo el proceso. La imagen de arriba a la izquierda es 
lo que "ve" la camara, y la de abajo a la izquierda es la imagen del fondo o 
background que se ha de restar. Una vez hecha la resta y binarizada la imagen, 
vemos lo que se ve en la imagen de en medio a la derecha, en la que practica- 
mente solo aparece la mano en una imagen binaria (con pixeles 100% blan- 
cos y 100% negros). Esta ultima imagen binarizada y restada del fondo ya nos 
deja casi la silueta perfecta de la mano para aplicar el paso siguiente, que es 
identificar la "mancha" o blob de la mano para obtener cierta informacion, tal 
como veremos en el apartado siguiente. 

3.2.4. Otras operaciones morfologicas 

En muchas situaciones, una vez que hemos obtenido una imagen binaria (en 
bianco y negro), observamos que aparece ruido en la imagen, fruto de los 
cambios en la iluminacion de ambiente y los pequenos reflejos de esta luz en 
los diferentes objetos y cuerpos en la escena. Este ruido suele consistir sim- 
plemente en pixeles que aparecen caoticamente en la imagen y que pueden 
estorbar seriamente la capacidad de los algoritmos de vision para reconocer 
blobs y patrones graficos. 

Para eliminar estos pequenos y molestos pixeles, hay una serie de algoritmos 
de "limpieza" de la imagen que nos ayudan a cumplir la tarea de obtencion de 
una imagen binaria lo mas neta posible. 

1) Mediana (median) 



CC-BY-NC-ND • PI D_001 84756 



22 



Vision artificial 



El algoritmo de la mediana se aplica sobre las imageries en escala de grises 
y provoca una cierta suavizacion de la imagen util a la hora de simplificar 
contornos y areas irregulares. 

El algoritmo de la mediana divide la imagen en un conjunto de divisiones de 
radio definible y calcula el valor de luminosidad medio de cada una de las 
subdivisiones. Una vez calculado, sustituye los pixeles que hay dentro de cada 
division por una unica mancha gris con el valor de luminosidad medio de los 
pixeles originales. 




1. Imagen original 



2. Aplicacion de la media 



2) Erosionar/dilatar (Erode/dilate) 

Los algoritmos de erosion y dilatacion se suelen aplicar en serie. Sobre la ima- 
gen "ruidosa" se aplica el algoritmo de erosion, que contrae los contornos de 
todas las areas blancas un numero determinado de pixeles y que elimina com- 
pletamente las areas de pixeles blancos mas pequenas e irrelevantes. 

Una vez aplicado el algoritmo de erosion, se aplica el algoritmo de dilatacion, 
que ayuda a recuperar la medida original de las areas importantes y que ex- 
pande los contornos de las areas blancas tantos pixeles como sea necesario. 




14 



1. Imagen ruidosa 



2. Imagen erosionada 3. Imagen dilatada 
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3.3. Extraccion de datos 



Una vez que tengamos la imagen preparada, aplicaremos una serie de 
algoritmos para extraer los datos de la misma. Podemos reconocer en 
la imagen, por ejemplo, las lineas, los circulos, las manchas, las esqui- 
nas, el movimiento, un determinado color..., o bien ciertos patrones de 




Una vez reconocido en la imagen lo que queriamos extraer (sea por cada linea, 
circulo o mancha reconocidos) de cada elemento, podremos averiguar su po- 
sition, velocidad de movimiento, medida o color dominante. 

A continuation, analizaremos una serie de algoritmos frecuentemente usados 
para la extraccion de datos en el contexto de proyectos relacionados con vision 
artificial: 

3.3.1. Reconocimiento de regiones o blob detection 



Llamamos blobs a los puntos o las regiones de pixeles mas luminosos (o 
mas oscuros) que los de los alrededores y que, por lo tanto, forman una 
"mancha" aislada del resto de la imagen. 



Las herramientas de reconocimiento de regiones o blob detection nos per- 
miten analizar las "manchas" de una imagen binaria (blanca y negra) y extraer 
information de cada una, como la medida de la mancha, el centro de masas 
de la mancha, su contorno... 



Este tipo de funciones son utiles en muchos casos, por ejemplo, para contar y 
localizar cuantos objetos tenemos en una escena. A partir de que los hayamos 
localizado, podremos seguir su trayectoria o analizar su movimiento. Por lo 
tanto, esta tecnica se utiliza en muchos procesos interactivos. 

3.3.2. Frame difference: seguimiento del movimiento o movement 
tracking 



Deteccion de blobs 



Tened en cuenta que la detec- 
cion de blobs requiere normal- 
mente, de entrada, una ima- 
gen ya binarizada con las fun- 
ciones de procesamiento de la 
imagen que acabamos de ver. 



Esta tecnica nos permite obtener datos del movimiento que hay en la 
escena que estamos analizando, tanto de la cantidad de movimiento 
como de su direction. 
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La tecnica consiste basicamente en restar un fotograma capturado por la ca- 
mara con el anterior. La resta nos da una referenda de lo que ha cambiado 
entre las dos imagenes. Normalmente aplicaremos esta tecnica despues de ha- 
ber hecho la sustraccion de fondo, es decir, que habremos eliminado mucha 
information del fondo. 

En caso de que no haya cambiado nada entre un fotograma y el anterior, la 
resta nos dara una imagen practicamente negra. 

Si, por ejemplo, en la camara estamos viendo un objeto en movimiento, la resta entre 
dos fotogramas consecutivos nos dara las partes de la imagen que han cambiado. Si la 
imagen ha cambiado mucho (porque el objeto se desplazaba rapidamente), la resta sera 
una mancha bastante grande; si la imagen ha variado muy poco, la operacion de resta 
nos dara una mancha muy pequena. 

Para acabar de extraer toda la information, lo que haremos es una detection 
de blobs. Como resultado, tendremos, por ejemplo, la medida de la mancha 
del blob, que sera una medida de la cantidad de movimiento. O bien, si com- 
paramos los centros de masas de la mancha o blob en dos fotogramas conse- 
cutivos, podremos extraer una medida de la direction del movimiento. 

3.3.3. Seguimiento de color o color tracking 



El seguimiento de color o color tracking nos permite hacer el seguimiento 
de un area de pixeles de un determinado color (es decir, de un valor 
especifico RGB). 



A pesar de que esta tecnica no se incluye en la implementation clasica de 
las bibliotecas OpenCV, es bastante popular. De hecho, se trata mas bien de 
la suma de un conjunto de tecnicas, que implican la extraction selectiva de 
canales de color, para aislar el color seleccionado y obtener una imagen binaria 
en la que solo el color del que se ha hecho el seguimiento aparece como un 
blob o una mancha blanca de pixeles. 



Generalmente, cuando hacemos un seguimiento de color, seleccionamos el 
color que queremos recorrer y definimos la medida del area alrededor de este 
pixel. El algoritmo tendra que ir reescaneando permanentemente esta area 
para no perder el seguimiento en caso de que el pixel original cambie de color. 
Cuanto mayor sea esta area de seguridad, mas dificultades tendra el ordenador 
para hacer todos los calculos, puesto que se trata de una operacion con gran 
demanda de capacidad de calculo por parte del procesador. 



Cran popularidad del color 
tracking 



El seguimiento de color es muy 
popular tambien en entornos 
de software mas alia de las 
aplicaciones de interactividad 
en tiempo real. Se usa de ma- 
nera intensiva en muchos pro- 
gramas de tratamiento profe- 
sional de video, para recorrer 
un punto de una grabacion de 
video, y para anadir efectos de 
postproduccion, estabilizar los 
movimientos involuntarios de 
la camara, etc. 
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3.3.4. Buscador de caras o face tracking 

Hay toda una serie de tecnicas enfocadas al reconocimiento de patrones o for- 
mas concretas en una imagen. Estas tecnicas nos permiten definir que patro- 
nes o imagenes buscaremos dentro de la escena. Asi es como funcionan la ma- 
yoria de tecnicas de buscador de caras. 

Esta funcion detecta si hay "caras humanas" dentro de la imagen y nos 
permite extraer cierta information de la cara (como su position y su 
medida) y algunos aspectos morfologicos (que son la base para poder 
identificar las caras de diferentes usuarios). 




Imagen de ejemplo de buscador de caras en el proyecto MM Fitting 
Algorithms 

Fuente: Carnegie Mellon University. Robotics Institute 



3.3.5. Buscador de caracteristicas o feature tracking 

A continuation, denominaremos bajo un mismo nombre toda una serie de 
tecnicas basadas en la extraction de caracteristicas o features de una imagen, 
que basicamente son puntos de la imagen facilmente reconocibles por ciertos 
algoritmos (detection de esquinas, por ejemplo). 

Otra aplicacion de estas tecnicas permite localizar los fiduciales de una esce- 
na. Los fiduciales serian patrones especialmente disenados para ser reconoci- 
dos, como por ejemplo los fiduciales que utiliza el instrumento interactivo 
Reactable, desarrollado por el equipo de Sergi Jorda (MTG-UPF). 
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Marcadores fiduciales del sistema Reactivision, utilizados en Reactable 
Fuente: reactivision.sourceforge.net 



3.3.6. Realidad aumentada 



Como habeis ido viendo, vamos acumulando unas tecnicas tras otras y vamos 
llevando a cabo acciones cada vez mas complejas. Del anterior concepto del 
buscador de caracteristicas o feature tracking se desprende en cierto modo la 
tecnica de la realidad aumentada o augmented reality. 



Por realidad aumentada entendemos todas las tecnicas que de alguna 
manera integran una imagen virtual dentro de una imagen de un en- 
torno real y, evidentemente, en tiempo real y de manera interactiva. 

Una de las bibliotecas mas utilizadas se denomina ARToolKit, que per- 
mite el trabajo desde muchos entornos de programacion creativa. 



Ejemplo de marcador de un sistema de realidad 
aumentada 

Una de las aplicaciones mas conocidas es la capacidad de introducir un ele- 
mento en 3D interactivo dentro de la imagen capturada por una camara. Esta 
integration es coherente con el punto de vista de la camara, y nos da la im- 
presion de que los objetos en 3D estan presentes en el entorno visto por esta. 
Evidentemente, esta tecnica requiere una camara para tener sentido, y siempre 
veremos el mundo en 3D integrado en la vision de la camara en un monitor. 
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Esta imagen es un marcador o marker para un sistema de realidad aumentada. 
Este simple patron es analizado por el sistema de vision artificial y de el pode- 
mos extraer la position y la orientation relativas a la camara. A partir de aqui, 
solo nos resta vincular un mundo virtual en 3D en relation con esta marca, 
copiando su perspectiva y su orientation. 



Aqui podemos ver una aplicacion muy sencilla de realidad aumentada: el usua- 
rio tiene en sus manos un papel con un marcador impreso, el sistema de vision 
reconoce el marcador y su orientation, y genera una figura en 3D sobre este, 
coherente con su position, su rotation y su inclination. 

3.4. Kinect 

Cuando aparecio en el mercado la camara Kinect de Microsoft, se generalizo la 
posibilidad de trabajar en el campo de la vision volumetrica o tridimensional. 

Este tipo de camaras volumetricas nos permiten adquirir una imagen 
plana en color y una imagen de profundidad, es decir, nos permiten 
saber a que distancia (o profundidad) de la camara se encuentran cada 
uno de los pixeles de la imagen. 

Ademas, si dentro de la imagen aparece la figura de un cuerpo humano, la 
propia camara es capaz de reconocer la postura de dicha figura y de enviarnos 
a nuestro software la position y la orientation de tronco, cabeza, brazos y 
piernas. 

Al cabo de pocos dias de su aparicion en el mercado, surgieron personas que 
habian conseguido desencriptar el protocolo USB de la Kinect usando meto- 
dos de ingenieria inversa y que lo publicaron en Internet. En pocas semanas, 




Tfpica aplicacion de la realidad aumentada. Se 
genera una escena en 3D en relacion con la posicion 
del marcador 

Fuente: artoolkit.sourceforge.net 
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una gran cantidad de entornos de programacion interactiva permitian inter- 
actuar con la Kinect: Processing, openFrameworks, Quartz Composer, Max/ 
MSP, EyesWeb, Cinder, ww, Flash... Asi pues, un producto pensado para el 
mercado de las consolas XBox se empezo a utilizar extensamente en el mundo 
del diseno interactivo. 




Fotograffa infrarroja en la que se muestra la nube de puntos infrarrojos 
que emite la Kinect para obtener la profundidad de la imagen. Fuente: 
www. mattcutts.com 

El hecho de que la camara Kinect sea un producto comercial masivo permite 
que su precio sea muy asequible en relacion con las prestaciones que nos da en 
un sistema de vision artificial. Poder disponer, por un lado, de una imagen con 
profundidad y, por otro, del reconocimiento de figuras humanas nos facilita 
muchisimo el trabajo de interaccion basado en la vision. 

Por ejemplo, con una imagen con profundidad de un cuerpo, podemos pedir a la apli- 
cacion que solo trabaje sobre los pixeles que hay entre 1,50 y 1,30 m de distancia de la 
camara. Si, por ejemplo, el usuario esta a un metro de la camara y mueve las manos hacia 
delante hasta que entren dentro del rango de 1,50 a 1,30 m, el sistema podra trabajar 
con una imagen en la que solo aparecen dibujadas las manos; por lo tanto, las tendremos 
facilmente aisladas para poder detectarlas con un blob-tracking y extraer su posicion. 

Es decir, con unas tecnicas muy sencillas podemos extraer la posicion de las 
manos con mucha precision. Si no tuvieramos la imagen de profundidad, nos 
seria mucho mas dificil conseguir el mismo resultado, por no decir imposible. 




Imagen de profundidad obtenida con una Kinect. Las zonas mas 
claras representan mas proximidad a la camara; las zonas mas oscuras 
representan mas alejamiento de la camara. Fijaos que la parte del cuello 
esta fuera del rango de profundidad y que, de alguna manera, no existe en 
esta imagen. 

Fuente: www.lawriecape.co.uk 
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Otra caracteristica impresionante de la Kinect es su capacidad para reconocer 
las posturas y la orientacion de una figura humana ante la camara. El propio 
hardware de la Kinect nos dice cuantas personas detecta en la imagen y cual 
es la postura de cada una de ellas. Los datos que expresan una postura nor- 
malmente son los angulos de las articulaciones. La Kinect divide el cuerpo en 
tres dimensiones (cabeza, antebrazo, brazo, tronco superior e inferior, cabeza, 
muslos y piernas). De esta capacidad han surgido multitud de tecnicas para 
interactuar con los usuarios; por ejemplo, generando un modelo en 3D en 
tiempo real que se mueve tal como se mueve el usuario. 




En esta imagen vemos como la Kinect pinta una estructura de esqueleto 
simplificada que copia la posicion tridimensional del usuario ante la 
camara. 

Fuente: weblog.200ok.com.au 



3.5. Diseno de interacciones 

Una vez que ya hemos extraido los datos de la imagen, hemos de utilizar 
esta informacion para tomar decisiones dentro de nuestro sistema. 

Esta es la etapa del proceso en la que, a partir de los datos extraidos, podemos 
tomar decisiones y acciones relacionadas. 

En general, obtendremos unos datos numericos (coordenadas del centro de 
masas, cantidades de pixeles de un determinado color, velocidad de movi- 
miento...) que tendremos que transformar y que usar como control de todo 
tipo de acontecimientos. Obviamente, en esta parte hemos de ser creativos 
y analizar cuales son los mapeos mas eficientes para disenar una interaction 
funcional y comprensible. 



Ejemplo 



Por ejemplo, si el usuario ha 
movido los brazos, activare- 
mos una secuencia determina- 
da de operaciones, o si la pieza 
roja esta muy cerca de la azul, 
haremos sonar una musica. 
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